package cc.xiaoxiya.yy.opt.text;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import utils.FileOpt;
import utils.HttpClientUtils;

/**
 * Created by zhangxb on 2017/5/15.
 */
public class OptBiqudao implements OptStart{
    public void start(TextAction textAction) {
        //下载一个网页的内容 先获取整个页面，再按获取规则进行内容提取。
        //根据一个uri获取一个页面，再根据提取规则进行提取。
       try {
           String html = HttpClientUtils.doGet(textAction.getUri(), null);
           Document doc = Jsoup.parse(html);
           String content = doc.body().select("#content").html();
           content = content.replaceAll("(<br>){1,10}|(</br>){1,10}|(&nbsp;){1,10}", " ");
           content = content.replaceAll("( ){1,10}", "\r\n  ");
           textAction.setContent(content);
           textAction.setName(doc.title());
           textAction.setFlag(true);
           if (textAction.getFlag()) {
               FileOpt.writer(textAction.getContent(), textAction.getDir(), textAction.getName() + ".txt");
           }
       }catch (Exception e){
           e.printStackTrace();
       }
    }
}
